Introducción a la programación en Triton: Transición de hilos a instancias de programa

En Triton, la unidad fundamental de ejecución cambia del hilo escalar CUDA a la instancia de programa. Esto representa una abstracción de un bloque de hilos de GPU, donde una sola instancia maneja un bloque vectorizado de elementos simultáneamente.

1. La identidad de la instancia de programa

Cada unidad de ejecución obtiene su identidad mediante pid = tl.program_id(eje=0). Piensa en un montacargas de almacén (la instancia de programa) recogiendo un paleta (el bloque) de 128 cajas, comparado con un único trabajador (hilo CUDA) que recoge una sola caja.

2. Triton frente a tensores de PyTorch

Entender la brecha semántica es crucial para la gestión de memoria:

Tensor de PyTorch: Un objeto Python del lado del host que envuelve el almacenamiento en VRAM, los desplazamientos y los metadatos.
Tensor de Triton: Un objeto de nivel de compilador que representa valores o punteros residentes en registros o SRAM.

Vista de PyTorch
Objeto Python que apunta a memoria global contigua.

Vista de Triton
Un bloque 2D/1D de datos dentro de los registros del compilador.

3. Naturaleza SPMD

Triton sigue un modelo Programa único, múltiples datos (SPMD) de flujo. Cada instancia de programa ejecuta el mismo código exacto código. La divergencia solo ocurre cuando la lógica utiliza el pid para calcular desplazamientos de memoria específicos.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary identifier for a Triton execution unit?

threadIdx.x

tl.program_id(axis=0)

tl.block_idx()

torch.get_id()

QUESTION 2

True or False: A Triton tensor is a Python object that stores metadata like strides on the host CPU.

True

False

QUESTION 3

What is the result of 'forgetting that all program instances execute the same kernel body'?

The compiler will automatically distribute tasks.

Race conditions or overwriting memory if pid-based logic is missing.

The kernel will fail to compile due to a syntax error.

Execution time will double.

QUESTION 4

In the forklift analogy, what does the 'Aisle Number' represent?

The BLOCK_SIZE

The program_id (pid)

The GPU Driver version

The Pointer address

QUESTION 5

Why is the Triton model considered 'Vectorized' compared to CUDA?

It uses Python lists.

One Program Instance handles a block of elements, not just one scalar element.

It only works with 2D matrices.

It runs on the CPU's SIMD units.